SPICE: Semantic Propositional Image Caption Evaluation
https://gyazo.com/86b2eefc57b88f16f77dc26d56a26094
BLEUなどはn-gramの重なりにsensitiveで, 真の意味でsemanticsを評価しているとは言えない 実際, 画像キャプショニングモデルではよく見かける指標となってきた
流れ
ただし, 複数名詞の処理において, ノードの複製はしない
(two people はpeopleを2つ増やすのではなくtwo→peopleとするだけ)
③ 以下に示す$ T(G(c))について
$ T(G(c)) \triangleq O(c) \cup E(c) \cup K(c)
Precision, Recallを定義して, F値をSPICEとする
$ P(c, S) = \frac{|T(G(c)) \otimes T(G(S))|}{|T(G(c))|}
$ R(c, S) = \frac{|T(G(c)) \otimes T(G(S))|}{|T(G(S))|}
$ SPICE(c, S) = F_{1}(c, S) = \frac{2 \cdot P(c, S) \cdot R(c, S)}{P(c, S) + R(c,S)}
$ T(G(c))の例
$ T(G(c)) = \{ (girl), (court), (girl, young), (girl, standing)\\(court, tennis), (girl, on-top-of, court) \}
https://gyazo.com/dcd7b4d5bfaec2baec9da5b96159f25a